iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
Python

從Python入門到自製遊戲:30天鐵人挑戰之旅系列 第 19

Pandas 與 Numpy 資料分析

  • 分享至 

  • xImage
  •  

颱風天繼續在家裡打字/images/emoticon/emoticon28.gif

使用 Pandas 和 Numpy 這兩個 Python 庫在資料科學和分析領域中非常常見,提供了靈活且強大的資料操作功能。Numpy 主打高效的數值計算,特別是在處理多維陣列時展現出色效能;而 Pandas 則擅長處理結構化資料(如 CSV 或 Excel 格式),讓資料框(DataFrame)成為分析的核心結構。

以下是一個簡單的 Pandas 和 Numpy 資料分析範例,展示如何讀取 CSV 檔案、進行資料篩選及統計分析:

import pandas as pd
import numpy as np

# 讀取 CSV 資料
data = pd.read_csv('sales_data.csv')

# 檢查資料前五筆內容
print(data.head())

# 篩選出特定年份的資料,例如:2023 年
data_2023 = data[data['Year'] == 2023]

# 使用 Pandas 進行資料彙總:計算各產品在 2023 年的銷售總額
total_sales = data_2023.groupby('Product')['Sales'].sum()
print("2023 年各產品的銷售總額:\n", total_sales)

# 使用 Numpy 進行統計分析:計算銷售額的平均值和標準差
mean_sales = np.mean(total_sales)
std_sales = np.std(total_sales)
print(f"2023 年銷售額的平均值: {mean_sales:.2f}, 標準差: {std_sales:.2f}")

# 使用 Pandas 將結果儲存為新的 CSV 檔案
total_sales.to_csv('total_sales_2023.csv', index=True)
  • 讀取資料 (pd.read_csv()):利用 read_csv() 將 sales_data.csv 轉換為 Pandas DataFrame 進行操作。
  • 資料篩選 (data['Year'] == 2023):篩選出指定年份(2023 年)的資料,形成新的 DataFrame data_2023。
  • 資料彙總 (groupby() 和 sum()):使用 groupby() 依產品分類,並計算各產品在 2023 年的銷售總額。
  • 統計分析 (np.mean() 和 np.std()):利用 Numpy 計算彙總後銷售額的平均值和標準差,這可以幫助了解銷售額的集中趨勢及波動範圍。
  • 儲存結果 (to_csv()):將彙總結果輸出為新的 CSV 檔案 total_sales_2023.csv,以方便後續分析或分享。

這次的學習讓我更熟悉了 Pandas 與 Numpy 的基本操作,並且理解它們如何在資料分析流程中互補。但如果真的實際應用到課題裡,我可能還是要繼續深入學習,才能將 Pandas 與 Numpy 溶入我的程式中。

那今天就先這樣。/images/emoticon/emoticon29.gif


上一篇
網頁爬蟲與資料處理
下一篇
日誌 (Logging) 與除錯技巧
系列文
從Python入門到自製遊戲:30天鐵人挑戰之旅26
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言